STAT4: RELATION ENTRE VARIABLES QUALITATIVES

Tableau de contingence et test du chi-2

Claude Grasland & Jean-Paul Nguesso

2025-06-01

Introduction

En simplifiant un peu, voici les différentes étapes que l’on doit suivre pour exploiter un questionnaire

Etapes

  1. le recodage des variables et de leurs modalités
  2. la production de tris à plat (analyse d’une variable isolée)
  3. la production de tableaux croisés (croisement de deux variables)
  4. le test d’hypothèse de relations entre deux variables (test du chi-2)

1. PREPARATION DES DONNEES

1.1. Chargement des données

On charge un fichier contenant les résultats d’une enquête.

RESPNO withinwt_ea URBRUR REGION EA_SVC_A EA_SVC_B EA_FAC_B EA_ROAD_C THISINT ADULT_CT CALLS Q1 Q2 Q46F Q46G Q46H Q46I Q57A Q57B Q58A Q58C Q90D Q90F Q90G Q91C Q92A Q94 LENGTH Q101 Q102 Q103
CDI1133 0.83266906901268 Urbain YAMOUSSOUKRO Oui Oui Non Très bonne Femme 2 1 27 Français Plutôt mal Très mal Très mal Plutôt bien Non Non Non Le vaccin peut causer d’autres effets secondaires indésirables Oui (en possède personnellement) Oui (en possède personnellement) Oui (A accès à l’internet) Oui, à l’intérieur de la maison Oui Université inachevée 73 Femme Noir / Africain Français
CDI0105 0.890007770199618 Urbain ABIDJAN Oui Oui Oui Très bonne Femme 4 2 52 Français Plutôt mal Plutôt bien Plutôt bien Plutôt mal Oui Non Non Le vaccin n’est pas sûr Oui (en possède personnellement) Oui (en possède personnellement) Oui (A accès à l’internet) Oui, à l’intérieur de la maison Oui Université achevée 188 Femme Noir / Africain Français
CDI0045 1.11789282426283 Urbain ABIDJAN Oui Oui Oui Très bonne Homme 4 1 21 Sénoufo Très bien Plutôt bien Plutôt bien Plutôt bien Non Non Oui Non applicable Quelqu’un d’autre dans le ménage en possède Oui (en possède personnellement) Oui (A accès à l’internet) Oui, à l’intérieur de la concession Oui Enseignement secondaire / lycée inachevé 110 Homme Noir / Africain Français
CDI1087 0.882969999920481 Rural MARAHOUE Oui Non Oui Passable Femme 4 1 45 Gouro Très mal Très mal Très mal Très mal Non Non Oui Non applicable Non. Personne dans le ménage n’en possède Oui (en possède personnellement) Non (N’a pas accès à l’internet) Non, pas disponible Oui Enseignement primaire inachevé 65 Femme Noir / Africain Français
CDI1036 0.96121448550732 Rural TCHOLOGO Non Non Oui Mauvaise Homme 1 1 76 Sénoufo Plutôt bien Plutôt bien Plutôt bien Plutôt mal Non Oui Oui Non applicable Non. Personne dans le ménage n’en possède Oui (en possède personnellement) Non (N’a pas accès à l’internet) Oui, à l’intérieur de la concession Non Pas d’enseignement formel 130 Homme Noir / Africain Français
CDI0119 1.11789282426283 Urbain ABIDJAN Oui Oui Oui Passable Homme 3 1 66 Français Plutôt bien Très mal Très mal Très mal Non Non Oui Non applicable Non. Personne dans le ménage n’en possède Oui (en possède personnellement) Non (N’a pas accès à l’internet) Oui, à l’intérieur de la concession Oui Enseignement secondaire / lycée inachevé 137 Homme Noir / Africain Français

1.2 Chargement des métadonnées

On charge ensuite un tableau contenant des informations sur les variables et leurs modalités

code def
RESPNO Numéro du répondant
withinwt_ea Facteur de pondération nationale
URBRUR Type de milieu: Urbain ou Rural
REGION Région
EA_SVC_A EA-SVC-A. Réseau électrique dans la ZD
EA_SVC_B EA-SVC-B. Système d’adduction d’eau dans la ZD
EA_FAC_B EA-FAC-B. École dans la ZD
EA_ROAD_C EA-ROAD-C. État de la route sur les derniers 5km
THISINT Cet entretien, sexe
ADULT_CT Nombre de citoyens adultes dans le ménage
CALLS Nombre de visites
Q1 Q1. Age
Q2 Q2. Langue parlée dans le ménage
Q46F Q46f. Réduction de la criminalité
Q46G Q46g. Amélioration des services de santé de base
Q46H Q46h. Satisfaction des besoins en éducation
Q46I Q46i. Fourniture de services d’eau et d’assainissement
Q57A Q57a. Est tombé malade de la COVID-19
Q57B Q57b. Perte de revenu à cause de la COVID-19
Q58A Q58a. A reçu le vaccin contre la COVID-19
Q58C Q58c. Raison principale pour laquelle il est peu probable de vacciner
Q90D Q90d. Possède ordinateur
Q90F Q90f. Possède téléphone portable
Q90G Q90g. Téléphone a un accès à l’Internet
Q91C Q91c. Emplacement de la toilette ou latrine
Q92A Q92a. Maison raccordée au réseau électrique
Q94 Q94. Niveau d’instruction du répondant
LENGTH Durée de l’entretien
Q101 Q101.  Sexe du répondant
Q102 Q102.  Race du répondant
Q103 Q103. Langue principale de l’entretien

1.3 Choix de variables à analyser

On sélectionne dans le tableau une variable Y que l’on veut expliquer et des variables X1, X2 …X3 qui peuvent servir à expliquer Y. On décide par exemple d’examiner les variables suivantes :

  • vac : A été vacciné contre le covid (Q58A)
  • sex : Sexe (Q101)
  • age : Age (Q1)
  • mil : Milieu Urbain ou rural (URBRUR)
  • ins : Niveau d’instruction (Q94)
vac sex age mil ins
Non Femme 27 Urbain Université inachevée
Non Femme 52 Urbain Université achevée
Oui Homme 21 Urbain Enseignement secondaire / lycée inachevé
Oui Femme 45 Rural Enseignement primaire inachevé
Oui Homme 76 Rural Pas d’enseignement formel
Oui Homme 66 Urbain Enseignement secondaire / lycée inachevé

1.4 Recodage de variables qualitative

On veut simplifier la variable reltive au niveau d’instruction qui possède trop de classes. On commence par examiner la distribution des fréquences

Var1 Freq
A refusé 1
Enseignement informel seulement (y compris enseignement coranique ) 36
Enseignement primaire achevé 85
Enseignement primaire inachevé 235
Enseignement secondaire / lycée achevé 94
Enseignement secondaire / lycée inachevé 402
Ne sait pas 5
Pas d’enseignement formel 165
Post universitaire 2
Qualifications post-secondaires autres qu’universitaires (certificat ou diplôme d’école polytechnique) 32
Université achevée 65
Université inachevée 78

1.4 Recodage de variables qualitative

Puis on recode chaque niveau afin de n’avoir plus que quatre modalités

Var1 Freq
Inf. 201
Prim. 320
Sec. 496
Sup. 177

1.5 Découpage de variables quantitatives

On veut maintenant découper la variable âge en trois classes.

On doit donc choisir de façon judicieuse les classes d’âge.

Var1 Freq
- de 30 ans 482
30-50 ans 559
+ de 50 ans 159

1.5 Resumé du tableau

On élimine les individus ayant de svaleurs manquantes (6 sur 1200) puis on résume rapidement le tableau:

Characteristic N = 1,1941
vac
    Non 764 (64%)
    Oui 430 (36%)
sex
    Femme 598 (50%)
    Homme 596 (50%)
mil
    Rural 542 (45%)
    Urbain 652 (55%)
ins4
    Inf. 201 (17%)
    Prim. 320 (27%)
    Sec. 496 (42%)
    Sup. 177 (15%)
age3
    - de 30 ans 479 (40%)
    30-50 ans 557 (47%)
    + de 50 ans 158 (13%)
1 n (%)

2. TRI A PLAT

Quelles sont les étapes d’analyse d’une variable qualitative ? On va suivre ici un programme type qui sera ensuite mis en oeuvre avec R

2.1 : Analyse de la variable à expliquer (dépendante) Y

On suppose que la variable à expliquer est le fait d’être vacciné

Fréquence simple

On calcule tout d’abord l’effectif de chaaque modalité

Var1 Freq
Non 764
Oui 430
  • Commentaire : 764 personnes déclarent avoir été vaccinées contre 430 qui déclarent ne pas l’avoir été

2.1 : Analyse de la variable à expliquer (dépendante) Y

Pourcentage

On calcule ensuite la part du total que cela représente en pourcentage

Var1 Freq
Non 64
Oui 36
Sum 100
  • Commentaire : Les personnes vaccinées représentent 64% des réponses, les non vaccinés 36%

2.1 : Analyse de la variable à expliquer (dépendante) Y

On visualise généralement à l’aide d’un diagramme en bâtons :

Diagramme en bâton

2.1 : Analyse de la variable à expliquer (dépendante) Y

Camembert

On peut également faire un camenbert si on préfère. C’est plus joli mais en fait moins facile à lire.

2.2 Analyse de la variable explicative (indépendante) X

On suppose que la variable explicative (indépendante) est age3 (âge en trois classes) On reprend les étapes précédentes

Fréquence simple

Calculer les fréquences de chaque classe

Var1 Freq
- de 30 ans 479
30-50 ans 557
+ de 50 ans 158
  • Commentaire : On trouve 479 personnes de - de 30 ans, 459 de 30-44 ans, 180 de 45-59 ans, 76 de 60 ans et +.

2.2 Analyse de la variable explicative (indépendante) X

Pourcentage

Calculer les valeurs en pourcentage

Var1 Freq
- de 30 ans 40.1
30-50 ans 46.6
+ de 50 ans 13.2
Sum 100.0
  • Commentaire : Notre échantillon comporte 40.1% de jeunes, 46.6% d’adultes et 13.2% de vieux.

2.2 Analyse de la variable explicative (indépendante) X

Diagramme en bâton

2.3 Marge d’erreur

Quel est le problème ?

  • On appelle tri à plat l’opération consistant à dénombrer les modalités d’une variable qualitative et à l’exprimer soit en effectif (nombre de réponses) soit en pourcentage (part des réponses)..

  • Les deux opérations paraissent équivalentes mais en réalité elles ne le sont pas car le pourentage seul ne permet pas de retrouvr la taille de l’échantillon total sur lequel ce pourcentage a été calculé.

  • Or, un pourcentage doit toujours être associé à une marge d’erreur qui dépend de la taille de l’échantillon

  • Plus l’échantillon est grand, plus la marge d’erreur sera faible.

2.3 Tri à plat et marge d’erreur

La marge d’erreur sur un pourcentage aussi appelée erreur d’échantillonage dépend donc de la taille de l’échantillon selon la formule suivante

\[ E = \sqrt{p(1-p) / n} \]

Nous avons trouvé que 36% des personnes étaient vaccinées sur un échantillon de 1194 personnes

On a donc p = 0.36, (1-p) = 0.64 et n = 1194, donc

\[ E = \sqrt{0.36 * 0.64 / 1194} = 0.014 \]

Notre intervalle de confiance à 95% sera alors défini par [p-2E ; p+2E] soit une erreur de + ou - 2.8 points de pourcentage.

  • Il est donc pplus juste de dire que le pourcentage de personnes vaccinées est compris entre 33.2% et 38.8%

2.3 Tri à plat et marge d’erreur

Calcul de la marge d’erreur

Si vous êtes allergiques aux calculs mathématiques, vous pouvez vous contenter de retenir les valeurs de référence suivantes :

taille de l’échantillon (n) Intervalle de confiance (+ ou - )
20 22.4
50 14.1
100 10.0
200 7.1
400 5.0
1000 3.2
1600 2.5
5000 1.4
10000 1.0

Exemple : pour un sondage sur 1000 personnes, l’intervalle de confiance correspond au pourcentage observé plus ou moins 3.2 points.

3. la production de tableaux croisés

Le coeur du travail d’analyse du questionnaire est la réalisation de tris croisés c’est-à-dire de tableaux de contingence croisant les réponses à deux questions (X et Y).

3.1 tableau de contingence

Non Oui Sum
- de 30 ans 336 143 479
30-50 ans 346 211 557
+ de 50 ans 82 76 158
Sum 764 430 1194

Exemple de lecture : 143 individus de - de 30 ans n’ont pas été vaccinés contre le Covid

Le tableau de contingence permet de produire différents tableaux de pourcentage.

3.2 pourcentage en ligne

Non Oui Total
- de 30 ans 70.1 29.9 100
30-50 ans 62.1 37.9 100
+ de 50 ans 51.9 48.1 100
All 64.0 36.0 100

Exemple de lecture : 29.9% des individus de - de 30 ans n’ont pas été vaccinés contre le Covid

3.3 pourcentage en colonne

Non Oui All
- de 30 ans 44.0 33.3 40.1
30-50 ans 45.3 49.1 46.6
+ de 50 ans 10.7 17.7 13.2
Total 100.0 100.0 100.0

Exemple de lecture : 33.3% des personnes qui ont été vaccinés ont moins de 30 ans

4. Test du chi-2

4.1 Formulation d’une hypothèse H1

Dans le cas de notre exemple on remarque que :

  • les jeunes sont les moins vaccinés (30%)
  • les adultes sont proches de la moyenne (38%)
  • les vieux sont les plus vaccinés (48%)

Formulation de l’hypothèse de recherche

H1: Dans le cas de la population de plus de 18 ans en Côte d’Ivoire en 2021, il existe un lien entre l’âge (X) et le fait d’avoir été vacciné contre le covid (Y).

4.2 Transformation en hypothèse H0

  • En statistique, on ne teste jamais directement l’hypothèse H1 (il y a une relation entre X et Y) mais on teste l’hypothèse inverse (il n’y a pas de relation entre X et Y) qu’on appelle hypothèse nulle. Pourquoi cette complication apparente ?

  • Parce que l’hypothèse nulle est plus rigoureuse et revient à se demander si ce n’est pas le hasard qui explique les différence de pourcentage observées. Dans notre exemple on va donc poser :

Formulation de l’hypothèse nulle

H0 : Il n’y a pas de relation entre l’âge (X) et le fait d’avoir été vacciné contre le Covid (Y). Les différences de pourcentage que nous avons mises en évidence sont peut-être l’effet du hasard.

4.3 Effectifs théoriques

Afin de voir si le hasard est effectivement intervenu, on va reconstituer ce que serait le tableau de contingence croisant X et Y dans le cas où les deux variables ne sont pas reliées.

Effectifs observés : Nij et effectifs théoriques Tij = (Ni. x N.j)/N..

Non Oui Sum
- de 30 ans 336 143 479
30-50 ans 346 211 557
+ de 50 ans 82 76 158
Sum 764 430 1194
Non Oui Sum
- de 30 ans 306.5 172.5 479
30-50 ans 356.4 200.6 557
+ de 50 ans 101.1 56.9 158
Sum 764.0 430.0 1194

4.4 Effectifs résiduels

On va ensuite mesurer les écarts entre effectifs observés et théoriques appelés résidus (Nij-Tij) puis les exprimer sous une forme mathématique appelée chi2 définie par la formule (Nij-Tij)x(Nij-Tij)/Tij

Résidus (Nij-Tij) et Chi-2 = (Nij-Tij)x(Nij-Tij)/Tij

Non Oui Sum
- de 30 ans 29.5 -29.5 0
30-50 ans -10.4 10.4 0
+ de 50 ans -19.1 19.1 0
Sum 0.0 0.0 0
Non Oui Sum
- de 30 ans 2.8 5.0 7.9
30-50 ans 0.3 0.5 0.8
+ de 50 ans 3.6 6.4 10.0
Sum 6.8 12.0 18.8

4.5 Calcul du chi-2

Le chi-2 total du tableau (18.75) sera d’autant plus élevé que la distribution observée s’éloigne de la distribution théorique. Plus le chi-2 augmente, moins il y a de chance que le hasard explique les différences entre valeurs observées et estimées. On peut alors faire un test pour connaître la probabilité que le chi-2 observé soit l’effet du hasard.


    Pearson's Chi-squared test

data:  tab
X-squared = 18.748, df = 2, p-value = 8.488e-05

4.5 Test du chi-2

  • le tableau possède 2 degré de liberté = (lignes - 1) x (colonnes - 1)
  • le tableau possède un chi-2 égal à 18.75
  • Un calcul effectué par un logiciel de statistique montre que la probabilité que cette valeur soit l’effet du hasard (p-value) est de 0.00008 c’est-à-dire moins d’une chance sur 1000

On va donc rejeter l’hypothèse d’indépendance H0

Conclusion : On ne peut affirmer avec un risque d’erreur très faible (moins d’une chance sur 1000) qu’il existe une relation entre l’âge et le fait d’avoir été vacciné contre le Covid en côte d’ivoire en 2021.

4.6 Significativité

Pour fixer les ordres de grandeur, voici un tableau simple à retenir :

Test..p.value. Interprétation code
> 0.10 Non significatif n.s
0.05 à 0.10 Presque significatif .
0.01 à 0.05 légèrement significatif *
0.001 à 0.01 significatif **
0.001 < très significatif ***

4.7 Limites du test du chi-2

  1. On doit disposer d’un échantillon d’au moins 20 individus

  2. Toutes les cases du tableau doivent avoir un effectif théorique >= 5

Si ces conditions ne sont pas respectées, le test du chi-2 n’est pas valide et R enverra un message d’avertissement ou refusera de faire le calcul.

5. AUTRES EXEMPLES

5.1 Relation entre vaccination et sexe

Que pensez vous de cette relation ?

Tableau de contingence
Non Oui Sum
Femme 403 195 598
Homme 361 235 596
Sum 764 430 1194
% enligne
Non Oui Total
Femme 67.4 32.6 100
Homme 60.6 39.4 100
All 64.0 36.0 100

    Pearson's Chi-squared test with Yates' continuity correction

data:  tab
X-squared = 5.7341, df = 1, p-value = 0.01664

5.2 Relation entre vaccination et milieu urbain/rural

Que pensez vous de cette relation ?

Tableau de contingence
Non Oui Sum
Rural 332 210 542
Urbain 432 220 652
Sum 764 430 1194
% enligne
Non Oui Total
Rural 61.3 38.7 100
Urbain 66.3 33.7 100
All 64.0 36.0 100

    Pearson's Chi-squared test with Yates' continuity correction

data:  tab
X-squared = 3.0014, df = 1, p-value = 0.08319

5.2 Relation entre vaccination et niveau d’instruction

Que pensez vous de cette relation ?

Tableau de contingence
Non Oui Sum
Inf. 130 71 201
Prim. 195 125 320
Sec. 318 178 496
Sup. 121 56 177
Sum 764 430 1194
% enligne
Non Oui Total
Inf. 64.7 35.3 100
Prim. 60.9 39.1 100
Sec. 64.1 35.9 100
Sup. 68.4 31.6 100
All 64.0 36.0 100

    Pearson's Chi-squared test

data:  tab
X-squared = 2.8062, df = 3, p-value = 0.4225

6. QUIZZ

6.1 Quelle est la principale utilisation du test du χ²?

  • Etudier la liaison entre deux variables qualitatives

  • Calculer la variance d’une variable quantitative

  • Mesurer la moyenne d’une variable quantitative

  • Déterminer la mode d’une distribution

6.1 Quelle est la principale utilisation du test du χ²?

  • Etudier la liaison entre deux variables qualitatives

6.2 Quelle hypothèse nulle correspond au test du χ² d’indépendance?

  • Les deux variables ont la même distribution

  • Il n’existe pas de liaison entre les deux variables qualitatives

  • Les deux variables sont parfaitement liées

  • Les deux variables sont indépendantes de la population

6.2 Quelle hypothèse nulle correspond au test du χ² d’indépendance?

  • Il n’existe pas de liaison entre les deux variables qualitatives

6.3 Quelle condition doit être remplie pour appliquer le test du χ²?

  • Les effectifs théoriques doivent être supérieurs ou égaux à 5

  • Les effectifs observés doivent être inférieurs à 5

  • Les effectifs théoriques doivent être inférieurs à 5

  • Les effectifs observés doivent être supérieurs à 5

6.3 Quelle condition doit être remplie pour appliquer le test du χ²?

  • Les effectifs théoriques doivent être supérieurs ou égaux à 5

6.4 Que représente un tableau de contingence dans le contexte du test du χ²?

  • Un graphique en barres
  • Une liste de valeurs numériques simples
  • Une distribution de probabilités
  • Une matrice qui présente la distribution des fréquences observées entre deux variables

6.4 Que représente un tableau de contingence dans le contexte du test du χ²?

  • Une matrice qui présente la distribution des fréquences observées entre deux variables

6.5 Comment calcule-t-on le degré de liberté pour un test du χ²?

  • Nombre de cellules dans le tableau

  • Nombre total d’observations

  • Nombre de lignes + nombre de colonnes

  • (nombre de lignes - 1) × (nombre de colonnes - 1)

6.5 Comment calcule-t-on le degré de liberté pour un test du χ²?

  • (nombre de lignes - 1) × (nombre de colonnes - 1)

6.6 Quelle est la valeur seuil généralement retenue pour la p dans le test du χ²?

  • supérieure à 0,05

  • supérieure à 0,1

  • inférieure à 0,05

  • inférieure à 0,01

6.6 Quelle est la valeur seuil généralement retenue pour la p dans le test du χ²?

  • inférieure à 0,05